查看原文
其他

“三步一条机器狗,五步一个数字人”

到底哥 AI鲸选社
2024-11-25



2024年,AI领域有一件事情可以确定,以后年度最盛大的AI春晚将非WAIC(世界人工智能大会)莫属了。
2023年WAIC虽有马斯克远程视频演讲,但热闹程度还达不到全民关注,2024年的WAIC,无论是现场气候的温度(很多人说40℃),还是现场人气的热度(30万人次),都创造了新高(同比增长了90%)。
据悉,这届大会的展览面积超过 5.2 万平方米,500 余家知名企业、超过 1500 项展品参展,50 余款新品首秀。不仅更多的大模型企业参展,更热闹的是机器人/数字人等可视化AI产品,以及AI PC和AI眼镜等硬件产品带来的热度,都让大家更能具体感知“智能时代”的来临。
而随着更新潮的概念“具身智能”被大众知晓,不少网友也感慨这届WAIC,简直是“三步一条机器狗,五步一个数字人”。
根据组委会公布的信息,WAIC 2024共推动 24 个重大产业项目的签约,预计总投资额超过 400 亿元。这其中大模型、机器人、数字人等贡献了多少呢?

机器人、机器狗突然走向C位

几年前,机器人领域还是底盘式和圆球手的机器人为主,而WAIC 2024上展示的大多数机器人已经是双腿式和关节手的机器人形态了。
走进WAIC大门,就能看到多家机器人摆出的“十八金刚”人形机器人先锋系列展览。正如猎豹移动董事长傅盛在WAIC上参与了“AI三人行”的对话中,提到机器人为什么突然多了:“大模型技术已经帮助机器人具备了规划能力,使得原本复杂的工程变得更加简单。”

最值得关注的机器人,要数特斯拉在WAIC上首发的Optimus二代人形机器人。这款机器人在直立行走的基础上,行走速度提升了30%,并且手指具有感知和触觉功能,能够处理精细和重物搬运任务。不过并没有完全开放展览,而是封在玻璃柜中静态展示。

“机器人第一股”达闼机器人也展示了其最新一代人形机器人XR4,并开启了预售。该机器人搭载了具身智能大模型RobotGPT,主要应用于科研场景。
现场不仅有能做深蹲的人形机器人,会唱歌的数字人,还有会炒菜和倒咖啡的机器人,甚至自动码货的物流机器人。这些人形机器人最多28个活动关节,越来越复杂和智能。
为什么要做人型机器人?“不是因为这是机器人的最优形态,而是因为这个世界的基建是围绕着人类搭建。”或许是解答这么多家公司布局人型机器人的原因。
另一方面,很多家AI公司展示了四足形式的机器狗,也非常吸引大家关注。
作为推特上火起来的明星,宇树科技凭借能后空翻的机器狗出圈。目前,其整机产品有6款机器狗(Go1、Go2、A1、B1、B2、Aliengo)、2款人形机器人(H1、G1),已落地的产品为巡检、消防救援场景的机器狗。
云深处科技的X30机器狗也是展会明星,能认得梵高画作《星空》,以及具备感知人类情绪的能力,能够主动鼓励主人,并给出舒缓心情的建议。此外,X30机器狗还担负WAIC 的运输水业务,出圈了一把。
当然,机器人大热背景下,泡沫也在浮现。在WAIC之前,李开复就曾说,大多数应用场景并不需要人形机器人,他认为真正人形机器人成熟是在10年后,现在人型机器火得像已经落地千行百业。
并且,现在熙熙攘攘的人型机器人,并未出现仿生式,各路机器人以套人形壳为主。其中大部分人型机器人还无法自主活动,要么是在后背加了悬吊,要么被固定在架子上。

刚具备初级智能,但还不能自由行动机器人,还需要时间发展。

数字人第二阶段是走向互动

数字人在2022年就已经大行其道,不过这些数字人主要是2D和3D虚拟人,更多是录制短视频或者宣传片,也即没法与人互动,少量走向直播间的数字人也普遍是“智障”。
2024年多模态大模型落地后,很多数字人终于可以实现语音/动作互动,开始走向前台与消费者直接接触。
这届WAIC上最受关注的数字人是“罗永浩”和“周鸿祎”,每个人都可以去现场与其互动。
其中,“罗永浩”是智谱科技推出的以他本人为原型的数字人,这款数字人不仅外形酷似罗永浩,而且在语言表达和情感反应上也比较逼真。"罗永浩数字人"能够进行行业分析和产品讲解,不能指望什么都能回答,但能对话个7788。
周鸿祎”是360公司展示的"知识官数字人",这款数字人不仅能够提供网络安全相关的咨询和教育,还能够模拟真实的网络安全攻防演练,帮助用户更好地理解网络安全。据说"周鸿祎数字人"大屏+数字人+知识库下来要10多万元,还是略贵。
相比2D名人数字人,不少3D数字人互动能力更强。
WAIC见到的数字人“关小芳”,不仅可以跟用户对话,还能识别你的表情,看到的衣着,判断你的胖瘦。情商也非常之高,对话回答很有艺术,譬如如果你很胖,你问她自己胖不胖,她就说你衣服挺宽松,很健康有活力。

硅基智能发布能够通过文字预测表情的AIGC数字人产品“EMOTE-X”,在视频演示中近一分钟的时间里,数字人可以连续变换生气、困惑、愤怒、轻蔑、恐惧、喜悦、痛苦、悲伤、期待、焦虑、兴奋和惊讶12种情绪。
WAIC上互联网大厂推出的数字人,则在各自擅长领域发力。
比如,百度推出的数字人“度晓晓”,不仅能够进行流畅的对话,还能理解和生成图像,多模态能力可使其在营销等领域拓展。
阿里巴巴的数字人“云小蜜”在电商服务领域展现应用潜力。云小蜜能够根据用户的购物习惯和偏好,提供个性化的购物建议和售后服务。
腾讯的数字人“梦幻精灵”则在娱乐和媒体领域的应用。梦幻精灵不仅能够作为虚拟偶像进行表演,还能在新闻播报和在线教育中提供生动有趣的内容。
字节跳动的数字人“字节小灵”在内容创作和分发方面展现了其创新能力。字节小灵能够根据用户的兴趣和行为,生成和推荐个性化的内容,为用户带来提供信息流服务。
由于当下具有情商和智商的数字人更多,意味着公司前台、景区接待、网站营销、会议主持等诸多场景,互动数字人都有了用武之地。

8大镇馆之宝也颇具关注度

这届AI盛会的特别之处,还公布了这八大镇馆之宝,官方营销还是客观评比到不用过多纠结,观览下这些创新产品,也是趣事之一。

这“八大镇馆之宝”分别是阿里云AI编程助手通义灵码;  联想集团YOGA Book 9i AI元启全尺寸双屏笔记本电脑;蚂蚁集团基于蚂蚁百灵大模型的“支付宝智能助理”;商汤科技首个面向C端用户的可控人物视频生成大模型Vimi;特斯拉赛博越野旅行车;智谱AI基座大模型;智能飞行器展区的电动垂直起降航空器(eVTOL)和金融界AI电报。
这其中,AI代码助手,被认为是大模型商业化前景较明显的一幕。
AI代码助手“通义灵码”,就是一款基于阿里云通义代码大模型打造的智能编码助手,提供行级/函数级实时续写、自然语言生成代码、单元测试生成等能力。该工具在中国信通院可信AI代码大模型首轮评估中获最高级,目前插件下载量已达350万,每日推荐代码超3000万次,被开发者采纳的代码行数超过亿行。
AI视频领域的现状是:“Sora 不出,可灵谁与争锋。”
商汤马上表示了不服,2024年7月4日,商汤科技宣布推出其突破性的人工智能产品——商汤Vimi可控人物视频生成大模型。Vimi可控人物视频生成大模型可用于影视制作、广告创意、虚拟主播等领域,能节省视频制作成本和时间。
Vimi能精准的人物表情控制,稳定生成长达1分钟的单镜头人物类视频。而可灵支持生成时长高达2分钟的超长视频(帧率30fps),分辨率高达1080p,且支持多种宽高比。
看似可灵更强,但Vimi是这届活动上发布,被评为本届WAIC镇馆之宝也没毛病。
AI PC也是最近的一个热点,微软在Surface上的失败耿耿于怀,大模型让微软找到了超越苹果的机会。
国内企业联想也高举AI PC的旗帜。联想YOGA Book9i AI作为其首代AI PC,拥有可翻转双OLED屏和32G+1T的储存,同时内嵌了基于个人大模型、自然交互的个人智能体“联想小天”,由嵌入本地的天禧大模型所驱动,除了常规的AI智会、AI演讲、AI写作、AI绘画等应用,还让电脑融合了多种深度学习预训练模型和强化学习框架,使电脑具备更多AI 能力。
但这款AI PC 售价较高,达到了17999人民币,且不适合对电脑配置需求较高的学习工作。 
最后值得关注的是电动垂直起降(Electric Vertical Takeoff and Landing,简称eVTOL),御风未来、时的科技、峰飞航空科技——这三家电动垂直起降航空器(eVTOL)头部企业的创新产品。
以盛世龙为例,这是峰飞航空科技发布的大型eVTOL载人航空器,5座设计,最大航程达到250公里,巡航速度超过200公里/小时。由于采用复合翼构型,既可以像直升机一样垂直起飞和着陆,也可以如固定翼飞机一样水平巡航。
eVTOL普遍适用于短程空中交通、城市空中运输等。但该领域目前没有哪家企业上市,也没有哪个城市开放了低空飞行,展会上的明星eVTOL,走向市场还需要时间。
WAIC展会已经结束,机器人被认为5年内走向大规模应用,互动型数字人预计将快速布局 ,更多形形色色的AI产品,你认为哪些能规模落地?

一场“小目标”亏损背后,AI能解电商的焦虑?


字节和快手混战AI:10余领域,从大模型到AIGC,谁更强?


继续滑动看下一个
AI鲸选社
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存